全球首次！科大讯飞SQuAD 2.0比赛全部指标超越人类平均水平

Original iFLYTEK 科大讯飞 2020-11-15

由斯坦福大学发起的国际权威机器阅读理解评测SQuAD（Stanford Question Answering Dataset），相信很多小伙伴已经并不陌生，从1.0、1.1再到2.0，比赛难度持续升级。在谷歌、微软亚洲研究院、IBM研究院、阿里巴巴达摩院、平安科技、上海交通大学、复旦大学等众多参赛的国内外知名研究机构和高校中，科大讯飞从2017年成为首次取得赛事榜首的中国本土研究机构起，已四次刷新比赛榜单第一。

就在最近，哈工大讯飞联合实验室（HFL）与河北省讯飞人工智能研究院联合团队再次在SQuAD 2.0挑战赛中有了新突破：不仅再再再再再次登上榜单第一，还全球首次在全部两项指标上都超过了人类平均水平，一举创下比赛的全新纪录。

科大讯飞在机器阅读理解领域的实力已不言而喻，这次突破背后又有怎样的故事，“秘籍”何在？当机器学会做阅读理解，甚至比人类的答题水平还胜出一筹时，TA们能为我们带来怎样的改变和影响？

SQuAD 2.0好难一比赛！

要会答题，还要会拒绝答题

虽然之前已对SQuAD比赛有过几次介绍，还是让我们先复习一下这项比赛的关键信息：

TA是认知智能行业内公认的机器阅读理解领域顶级水平测试，通过吸收来自维基百科的大量数据，构建了一个包含十多万问题的大规模机器阅读理解数据集。
参赛者提交的系统模型在阅读完数据集中的一个篇章内容之后，回答若干个基于文章内容的问题，然后与人工标注的答案进行比对，得出精确匹配（Exact Match）和模糊匹配（F1-score）的结果。
精确匹配EM：机器给出的答案和人给出的一样才算正确；模糊匹配F1：机器答案短语切成词后与人给出的答案共同计算回归率与准确性，就算没有完全匹配也可以得分。

对于机器而言，存储、运算，甚至图像、语音的识别都已不在话下，但是想要读懂文章内容并做出回答，没有人类思维大脑的机器还是非常困难的。

SQuAD 2.0的比赛则在上面任务的基础上，把难度再次提升：加入“不可回答的问题”。也就是说，参赛系统阅读完篇章内容后再读题，如果这个问题不能通过之前读完的内容回答，要拒绝回答；如果判断可以回答，那么再给出篇章中的某个连续片段作为答案。

双指标超过人类水平！

讯飞答题有妙招

如此高难度的阅读理解比赛，如果让人类来答题，水平几何呢？

人类的成绩是：EM：86.831；F1：89.452

讯飞此次参赛系统的成绩是：EM：87.147；F1：89.474

虽然差距不算太大，但已是全球首次在这两项指标上都超过人类水平了！就在去年11月，哈工大讯飞联合实验室刷新SQuAD 2.0比赛榜单时的成绩，还与人类认知水平在该数据集上的效果有一定差距。短短不到半年的时间，科大讯飞已经取得了弥足珍贵的进步。

首次超越人类水平的背后，得益于提交的“BERT + DAE + AoA”参赛模型，模型融合了业界领先自然语言语义表示模型BERT和团队持续积累改进的层叠式注意力机制（Attention-over-Attention，AoA），在吸收业界最新前沿技术的同时又加入了已有的原创核心技术，将该评测的相关技术指标推向新的高度。

哈工大讯飞联合实验室参赛提交系统一览

超越人类不是目的

汽车、司法都已助力

也许你会疑惑，机器在阅读理解上的水平获得这样的突破与成绩，难道是为了超越人类、成为做题机器？

核心技术评测中的积累，最终是为了将技术更好应用到实际产品中，让人们亲身体会到技术带来的改变。阅读理解技术其实已经在汽车、司法领域有所应用，例如一些车型中的车载电子说明书产品，通过机器阅读汽车领域相关的材料，使机器深度理解并掌握对该车型的相关知识。用户提出相关问题之后，产品不仅可以快速反馈相关的章节，还能利用阅读理解技术进一步挖掘并反馈更精准的答案；这样就能够减少用户的阅读量，提高信息获取的速度。

在司法领域，哈工大讯飞联合实验室出品的“法小飞”智能法律咨询助手也应用了对话型阅读理解技术，带来优质快速的法律咨询和相关服务，为用户提供精准的答案，还提升了用户的对话交互体验。

技术探索的脚步还在涉足更广的领域，目前科大讯飞还在积极探索其他类型的阅读理解，例如基于知识、常识的阅读理解，对话型阅读理解以及基于综合线索的阅读理解等。

在比赛指标上超越人类水平并不是结束，对于机器阅读理解的“能理解会思考”的终极目标来说，也许这仍是一个全新的开始。对自然语言的更深层次的归纳、总结、推理，一定是未来机器阅读理解不可缺少的部分；落地应用，机器阅读理解技术在产品的精准问答、开放域的问答都能起到有力的支撑作用，未来还会有怎样的产品让我们收获更多惊喜，科大讯飞将全力以赴给出答案。

哈工大讯飞联合实验室

哈工大讯飞联合实验室（HFL）是科大讯飞针对“讯飞超脑”项目计划，重点引进和布局的核心研发团队之一，由科大讯飞AI研究院与哈尔滨工业大学社会计算与信息检索研究中心（HIT-SCIR）共同创办。根据联合实验室建设规划，双方将在语言认知计算领域进行长期、深入合作，具体开展阅读理解、自动阅卷、类人答题、人机对话、语音识别后处理、社会舆情计算等前瞻课题的研究。重点突破深层语义理解、逻辑推理决策、自主学习进化等认知智能关键技术，支撑科大讯飞实现从“能听会说”到“能理解会思考”的技术跨越，并围绕教育、司法、人机交互等领域实现科研成果的规模化应用。

哈工大讯飞联合实验室不仅在核心技术上持续深耕，同时也积极关注和推动中文信息处理的研究发展。在2017年和2018年，哈工大讯飞联合实验室先后承办了两届“讯飞杯”中文机器阅读理解评测（CMRC）受到了业界广泛关注和各界研究人员的积极参加，并且发布了相关中文数据集，进一步促进了中文机器阅读理解研究。今年将继续携手中国中文信息学会计算语言学专业委员会（CIPS-CL）承办相关中文机器阅读理解评测活动，持续推动中文机器阅读理解技术的研究发展。

所获荣誉：

1. 多次荣登国际权威机器阅读理解评测SQuAD 1.1榜首

2. 多次荣登国际权威机器阅读理解评测SQuAD 2.0榜首

3. 2018年2月，荣获国际语义评测SemEval 2018阅读理解任务冠军

4. 2018年12月，荣获对话型阅读理解评测CoQA冠军

河北省讯飞人工智能研究院

科大讯飞河北省讯飞人工智能研究院，成立于2019年1月，是科大讯飞推动人工智能战略落地，助力京津冀区域人工智能规模化应用和产业发展重要核心研发团队之一。研究院重点聚焦人工智能中认知智能技术，实现认知基础前沿技术、教育认知技术、司法认知技术等技术在政务、各公共服务等领域的应用。

文丨讯飞研究院桃核

封面图 | 子豪

喜欢此内容的人还喜欢

看到辛瓦尔死前3天没吃任何东西，立即想到了杨靖宇

西班牙街头一幕！国王遭民众围攻

又一个特朗普时代！对美国、中国和世界的影响

今天，石狮这所小学向全市展示！

灯塔国的灯